智能论文笔记

Warfarin is a widely used anticoagulant, and has a narrow therapeutic range. Dosing of warfarin should be individualized, since slight overdosing or underdosing can have catastrophic or even fatal consequences. Despite much research on warfarin dosing, current dosing protocols do not live up to expectations, especially for patients sensitive to warfarin. We propose a deep reinforcement learning-based dosing model for warfarin. To overcome the issue of relatively small sample sizes in dosing trials, we use a Pharmacokinetic/ Pharmacodynamic (PK/PD) model of warfarin to simulate dose-responses of virtual patients. Applying the proposed algorithm on virtual test patients shows that this model outperforms a set of clinically accepted dosing protocols by a wide margin. We tested the robustness of our dosing protocol on a second PK/PD model and showed that its performance is comparable to the set of baseline protocols.

translated by 谷歌翻译

Gemino: Practical and Robust Neural Compression for Video Conferencing

Vibhaalakshmi Sivaraman , Pantea Karimi , Vedantha Venkatapathy , Mehrdad Khani , Sadjad Fouladi , Mohammad Alizadeh , Frédo Durand , Vivienne Sze

分类：计算机视觉

2022-09-21

当网络条件恶化时，视频会议系统的用户体验差，因为当前的视频编解码器根本无法在极低的比特率下运行。最近，已经提出了几种神经替代方案，可以使用每个框架的稀疏表示，例如面部地标信息，以非常低的比特率重建说话的头视频。但是，这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建，并且不会扩展到更高的分辨率。我们设计了Gemino，这是一种基于新型高频条件超分辨率管道的新型神经压缩系统，用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节（例如，皮肤纹理，头发等），为每个目标框架的一个非常低分辨率的版本（例如，皮肤纹理，头发等）。我们使用多尺度体系结构，该体系结构在不同的分辨率下运行模型的不同组件，从而使其扩展到可与720p相当的分辨率，并且我们个性化模型以学习每个人的特定细节，在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino，这是WEBRTC的开源Python实现，并表明它在A100 GPU上实时在1024x1024视频上运行，比比特率的比特率低于传统的视频Codecs，以相同的感知质量。

translated by 谷歌翻译

多模式机器学习是一个充满活力的多学科研究领域，旨在通过整合多种沟通方式，包括语言，声学，视觉，触觉和生理信息，以智能能力（例如理解，推理和学习）来设计计算机代理。鉴于最近对视频理解的兴趣，具有体现的自主代理，文本到图像的生成以及医疗保健和机器人技术等应用领域的多传感器融合，多模式的机器学习为机器学习社区带来了独特的计算和理论挑战数据源和互连经常在模式之间发现。但是，多模式研究的进展广度使得难以确定该领域的共同主题和开放问题。通过从历史和最近的角度综合了广泛的应用领域和理论框架，本文旨在概述多模式机器学习的计算和理论基础。我们首先定义了驱动后续创新的两个关键原理和互连的两个关键原则，并提出了6种核心技术挑战的分类法：代表，对齐，推理，推理，发电，转移和量化涵盖历史和最新趋势。最新的技术成就将通过该分类法的角度提出，使研究人员能够了解新方法之间的相似性和差异。最后，我们激发了我们分类法确定的未来研究的几个开放问题。

translated by 谷歌翻译

创建人工社会智能 - 可以理解多人互动的细微差别的算法 - 在处理多模式视频的面部表情和手势方面是一个令人兴奋的新兴挑战。最近的多模式方法已经在许多任务上设定了最新的现状，但是很难在社交互动中对复杂的面对面对话动态进行建模，尤其是在自我监督的设置中。在本文中，我们提出了面对面的对比学习（F2F-CL），这是一个图形神经网络，旨在使用分解节点对社交互动进行建模，以将沿语言转弯界限的多模式面对面互动进行上下文。借助F2F-CL模型，我们建议在同一视频中不同口语转弯的分数节点之间进行对比学习。我们通过实验评估了具有挑战性的社会IQ数据集并显示了最先进的结果。

translated by 谷歌翻译